查看原文
其他

​TPAMI 2022 | 跨特征图注意机制的小物体语义分割技术

Miko PaperWeekly 2023-03-18

©PaperWeekly 原创 · 作者 | Miko
本篇文章介绍一下 Stanford University 学者于 TPAMI 2022 发表的一篇关于小物体语义分割的文章。语义分割的目标是从图像中准确标识出特定类型的物体,它是众多图像/视频应用领域的基础研究。全球各大科研机构都有大量学者关注语义分割研究领域,很多先进的语义分割算法被不断的提出。但目前对于小物体的语义分割仍然是一个公认的难点,而对小物体准确的分割对于各类应用如自动驾驶、肿瘤早筛等都有至关重要的影响。

斯坦福大学 Shengtian Sang 等人提出了一种利用跨特征图注意力机制的方法提高现有语义分割模型的性能,实验表明该方法在仅增加基础模型 0.1% 参数的情况下可以提高现有语义分割模型 2%-5% 的性能,该方法对于语义分割研究领域有重要的意义。



论文标题:

Small-Object Sensitive Segmentation Using Across Feature Map Attention

论文链接:

https://ieeexplore.ieee.org/document/9906428




研究背景

由于卷积和池化操作导致的信息损失,目前基于卷积神经网络的方法对于小/薄物体的分割仍然具有挑战性。该文提出了一种交叉特征图注意力(AFMA)的方法来解决这一问题。它通过利用原始图像的不同层级特征来量化属于同一类别的小物体和大物体之间的内在关系,AFMA 可以弥补小物体的深层特征信息损失并提高模型对小物体分割的性能。该方法可以广泛的用于现有分割模型架构,并能产生比现有方法更多的可解释的特征表示。

本工作的贡献可以概括为以下几点:
1. 引入了交叉特征图注意力机制,有效地提高了模型对小物体分割的性能。
2. 提供了一种基于交叉特征图注意力机制的解释方法,该方法可以给出模型识别小物体的依据。

3. 文中提出的方法可以应用到大部分现有分割模型,在只增加少于 1% 的参数的情况下提高模型 2%-5% 的性能。




本文方法

文中提出的交叉特征图注意力是一个类似于“插件”的方法,它可以应用到大部分现有的分割模型。论文首先展示了 AFMA 结合分割模型的示意图,如图 1a 所示,该方法插入到分模型的编码部分,其输出作用于模型的解码输出。图 1b-i 给出了 AFMA 作用于不同语义分割模型的示意图。



本文方法细节如下图所示:
方法部分(a):计算 AFMA。利用模型编码层的原始图像(Initial input)和特征图(feature maps)计算得到 AFMA。
step 1 和 step 2分别对原始图像和特征图做卷积操作,将原始图像和特征图的维度分别转化为 ,其中 表示的是数据集中待分隔物体的种类。
step 3 和 step 4分别对 1、2 得到的特征图做大小相同的“切块”操作,该操作类似于 vision Transformer 中的 patch partition 操作。如使用大小为 的切块操作得到 的特征图。其中 的每个图像中包含的是原始图像的信息,其中 中每个图像块包含的是某种特定物体的特征图信息。
step 5使用点积操作计算 3、4 得到的特征图,得到大小为 的 AFMA。该 AFMA 保存的是原始图像图像块(可能包含小物体)和特征图特征块(可能包含大物体)之间的关系。

方法部分(b):通过 AFMA 计算模型原始输出可能包含的小物体信息。

step 6 和 step 7分别对分割模型的输出做平均池化(average pooling)和分块操作,得到维度为 的特征图,其中每个 大小的特征块包含的是模型原始结果的“压缩”结果。

step 8计算 AFMA 和“压缩结果”的点积,该结果表示原始输出可能包含的小物体信息。

step 9 和 step 10step 9 将切块的特征图还原到模型输出结果的尺寸 ,step 10 将该结果和模型的原始结果相加作为最终模型的结果。


方法部分(c):介绍 AFMA 的金标准计算方法。该方法分别使用和(a)(b)中相同的平均池化、分块和点积操作得到维度为  的 AFMA 标准答案。文中另外也给出了计算标准 AFMA 的用例图,如下图所示:


损失函数:该方法的损失函数包含两部分,一部分是分割方法传统的交叉熵损失函数;另一部分采用了 MSE 作为计算 AFMA 和标准 AFMA 之间的损失。



实验结果

该论文在广泛使用的街景数据集 CamVid,CityScapes、医学数据集 LiTS,SLATMD 及自然图像数据集 UCSDBirds 上都做了大量的对比实验。如下为 CamVid 数据集上的结果,从结果可以看到所有的现有语义分割模型在加上 AFMA 方法后对于小物体的分割性能都有提升。


文中除了给出一般论文展示的分割结果示意图以外,还给出了 AFMA 对于结果提升的原因及解释。如下图所示,AFMA 计算得到图像中的小车和大车的特征图存在较多关联,而和其他类型物体的特征图关系较少。从下图 b 可以看到,图中左前方的大车、后方的次大车以及马路中间较小的车辆都对模型最终能识别最远处的小车提供了信息。论文中作者对于 AFMA 还给出更多的实例和详细的解释。


作者还比较了模型在使用 AFMA 后的模型复杂度及训练时间的变化,从下图可以看到使用 AFMA 对于模型的训练负担很小,更重要的是 AFMA 只增加模型大概 0.1% 的参数,却能提高模型在小物体分割性能上 2%-5% 的性能。



总结

本文提出了一种提高语义分割模型对于小物体分割性能的方法,该方法通过计算输入数据的图像层和特征层之间的关系来提高模型对小物体的敏感性。更重要的是该方法是一个适用于大部分现有分割模型的通用方法,它在仅增加 0.1% 参数的情况下可以提高模型对于小物体分割的性能,因此该方法对于语义分割领域有重要的意义。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·
·

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存